金山AI训练欲说还休,征集用户信息还需谨慎
近日,金山办公宣布旗下具备大语言模型能力的人工智能办公应用WPS AI开启公测。随即有用户发现《WPS隐私政策》中提到“我们将对您主动上传的文档材料,在采取脱敏处理后作为AI训练的基础材料使用”,质疑该条款涉及用户隐私问题,引发舆论关注。11月18日,WPS官方作出回应,表示向用户致歉、已更新隐私政策,承诺用户文档不会被用于AI训练目的。
当前,大模型已成为AI领域的热门赛道,众多企业竞相入局投入研发。随着越来越多的AI大模型产品向公众开放,其引发的数据隐私与版权争议日益激烈。
1
AI大模型频繁侵权遭抵制
AI大模型引发的数据安全问题引发全球高度关注。现实中,数据来源和版权归属复杂、用户授权规则和知情权不明晰、技术判定和取证困难等多重挑战,使大模型在训练和应用阶段均可能出现数据滥用问题。
今年3月,意大利以OpenAI公司推出的聊天机器人ChatGPT违反欧盟《通用数据保护条例》等数据隐私保护规定为由,宣布对其禁用;西班牙、法国等欧洲国家跟进对其展开调查。不到半年时间,ChatGPT陷入与多家内容平台的版权纠纷之中。OpenAI、Meta、微软等科技公司接连遭遇诉讼,被控从互联网上“窃取”大量个人数据信息及未授权作品来训练AI工具。在国内,小红书、LOFTER等平台今年推出的AI绘画功能也因滥用户数据训练AI、侵犯画师作品版权而遭用户抵制而下线。
有专家指出,用于大模型训练的语料来自互联网的各个角落,包括但不限于书籍、文章、新闻、论坛、博客等等,凡是互联网上可以找到的信息几乎都在其学习之列。即便科研人员会对语料进行数据清洗,但其中仍有可能包含个人隐私信息;随着数据来源的扩大,即便是号称“开源”的各类数据库,也并非意味着完全不存在版权合规问题。此外,生成式AI的快速发展可能导致虚假信息野蛮生长,舆论对“深度造假”问题的担忧逐渐加剧。
2
全球范围合规监管加速探索
针对各自AI产业发展的现状,不同国家对数据安全性、合规性、伦理性的监管重点不尽相同。如在日本、欧美等地的著作权法中有文本和数据挖掘的限制例外制度,其中规定,为了训练人工智能的目的而利用他人作品的行为可以不认定为侵权。
我国在信息内容安全领域已经有了较为完整的实践思路。近年来,《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》颁布,为数据安全提供了基础性法律保障。《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等文件相继出台,对技术向上向善发展加强引导和规范。
2023年8月,国家网信办等7部门发布的《生成式人工智能服务管理暂行办法》正式施行,其中明确规定,应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。10月,全国信息安全标准化技术委员会组织制定的《生成式人工智能服务安全基本要求(征求意见稿)》面向社会公开征求意见,其中对语料来源安全、内容安全、标注安全等做出了明确要求。
3
以语料库建设助力AI产业安全发展
“一边是‘嗷嗷待大量数据以哺’的人工智能,另一边是越发重视个人信息保护的用户,如何善用数据,考验全社会数据治理的能力和成效,事关万千网民的切身利益。”人民日报评论指出,发展和安全从来不必然是矛盾的、对立的,平衡好各方面利益,才能推动生成式人工智能健康可持续发展。
语料库是训练和优化AI大模型的“养料”。当前,我国AI发展所需要的语料数据仍相对匮乏。有数据显示,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。业内人士指出,虽然我国的数据资源丰富,但是由于数据挖掘与流通不足,中文语料库与英文等其它语言的数据语料库相比仍有差距,可能成为阻碍大模型研发的重要因素。
国内多地数据交易所和大模型研究机构已围绕中文语料库建设展开探索。面对合规难题,国家数据库、主流价值语料库等建设备受关注。
在今年7月举行的2023全球数字经济大会上,首批“北京市人工智能大模型高质量数据集”发布,包括人民日报在内的10家单位的18个高质量训练数据集入选。
近日,人民数据打造的新闻数据、问答数据等语义语料库也正式推出,面向人工智能大模型、通用人工智能、智能互联网等应用场景,提供高质量的语料生产、定制、供给服务。基于人民日报及人民网的媒体资源优势,人民数据语义语料库的相关数据量达到了近3亿条,其中梳理了1万余个重点问题,形成优质问答语料库,助力解决大模型在语料方面的刚性需求、紧急需求、安全需求。
AI技术和应用创新,“合规”始终是底线。未来还需加强对AI大模型安全、规范、可持续发展的探索,充分挖掘各类数据资源价值,以构建主流价值语料库为抓手,推动中国AI产业安全发展。
作者:人民数据研究院研究员 李兵兵
编辑:谈栋(实习)
责编:王晓彤 岳禺宁